Hadoop : NoSuchMethodException

hadoop - 为什么 Hive 返回 FAILED : SemanticException. ..Unable To Instantiate

我已经安装了Hive，将它添加到PATH，并且能够在终端中使用hive命令打开它。但是，当我尝试运行诸如之类的基本命令时显示表格；我遇到了错误:失败:SemanticExceptionorg.apache.hadoop.hive.ql.metadata.HiveException:java.lang.RuntimeException:无法实例化org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient我遵循的说明并未建议必须实例化任何内容。作为引用，我正在使用Hadoop:权威指南(第4版)一书并在我的机器上本地运行它。运

java - 没有集群的 Hadoop MapReduce - 这可能吗？

是否可以在没有集群的情况下运行HadoopMapReduce程序？我的意思是，出于教育目的，我只是想稍微摆弄一下map/reduce，所以我只想在我的计算机上运行几个MapReduce程序，我不需要将任何工作拆分到多个节点等...不需要任何性能提升或任何东西，正如我所说，仅用于教育目的。我是否仍需要运行VM来实现此目的？我正在使用IntelliJUltimate，我正在尝试运行简单的WordCount。我相信我已经设置了所有必要的库和整个项目，并且在运行时我得到了这个异常:Exceptioninthread"main"java.io.IOException:Cannotinitiali

MapReduce Hadoop section java

shell - 在 hadoop 集群中运行 bash 脚本的 Hadoop 命令

我有一个shell脚本(count.sh)，它计算文件中的行数。此脚本已复制到hdfs中，目前正在使用Oozie工作流来执行此脚本。不过，我想知道是否有办法从命令行执行此shell脚本。例如:在unix中:[myuser@myserver~]$./count.sh当count.sh位于hadoop集群位置'/user/cloudera/myscripts/count.sh'时等效于此。我读了这个Hadoopcommandtorunbashscriptinhadoopcluster,但还是不清楚。最佳答案我知道这是一篇旧帖子，但我

中运 hadoop section code bash shell cloudera oozie-workflow

hadoop - 我是否需要在 Hadoop 集群中打开端口以进行内部通信？

我有一个15节点的Hadoop集群(HortonworksAmbari2.7)，在安装Ambari时我关闭了防火墙。IT团队想要重新打开防火墙，因为这对他们来说是一个安全漏洞。但是，如果我打开防火墙:我是否需要为所有服务(hive、MR、Ambari、Spark等)启用/打开端口，或者它是否可以工作，因为它们在同一网络下运行？有什么方法可以检查防火墙打开时这些端口是否打开？最佳答案 Hadoop服务应该能够在子网内相互通信，但是您需要为任何外部HDFS客户端、YARNResourceManagers、Hive服务器、Ambari服

hadoop section 防火 Ambari networking port

hadoop - Hadoop 可以做流式处理吗？

有人建议Hadoop做流式处理，并引用了Flume和Kafka作为例子。虽然我知道它们可能具有流功能，但我想知道它们是否可以被视为与Storm/Spark/Flink等流处理技术处于同一级别。Kafka是一个“发布-订阅模型消息系统”，而Flume是一个数据摄取工具。即使它们与hadoop交互/集成，它们在技术上是“hadoop”本身的一部分吗？PS:我知道有一个HadoopStreaming这是完全不同的事情。最佳答案 Hadoop只是YARN、HDFS和MapReduce。作为一个项目，它不适应(近)实时摄取或处理。Hadoo

流式 hadoop Kafka section strong apache-kafka streaming flume stream-processing

hadoop - HTTP ://localhost:9870 does not work HADOOP

本人初学hadoop，使用的是最新版ubuntu，浏览localhost:9870时出现错误，浏览器提示页面不存在最佳答案首先，您需要通过输入以下命令检查Hadoop守护进程是否正在运行:jps。这里我的namenode也配置为datanode。其次，通过输入命令检查NamenodeJava进程是否在9870端口运行。netstat-an|grep9870第三，查看hdfs-site.xml中的dfs.namenode.http-address属性最后，确保你已经关闭了防火墙关于h

localhost hadoop section 时出 9870

hadoop - oozie 工作流应该只在有可用的输入 hdfs 文件时运行

我设置了协调器和值和超时。协调器工作正常，因为它会检查输入文件是否在hdfs位置可用，只有在它运行工作流时才会超时。我在工作流中需要相同的行为，就像如果我只运行一个没有协调器的工作流，那么工作流的行为应该与上述协调器的行为相同。我试过mapred.input.dir但工作流程成功运行。有没有其他方法可以达到同样的效果。工作流是一个简单的helloworld作业，而不是map-reduce作业。最佳答案 Wrokflow用于按需运行作业。您正在寻找的功能在Workflow中不可用。该功能由协调器提供。

hadoop oozie 协调器 section code workflow oozie-coordinator

apache-spark - Spark 与 Hadoop yarn : Use the entire cluster nodes

我将Spark与HDFSHadoop存储和Yarn结合使用。我的集群包含5个节点(1个主节点和4个从节点)。主节点:48GbRAM-16个CPU内核从属节点:12GbRAM-16个CPU内核我正在执行两个不同的进程:WordCount方法和带有两个不同文件的SparkSQL。一切正常，但我在问一些问题，也许我不太了解Hadoop-Spark。第一个例子:WordCount我执行了WordCount函数并在两个文件(part-00000和part-00001)中得到了结果。part-00000的可用性是slave4和slave1，part-00001的可用性是slave3和slave4。

apache-spark cluster section code strong hadoop

Hadoop自带的Serialization和AVRO序列化的关系？

我试图了解Avro并了解到它是Hadoop使用的数据序列化框架之一。在学习Hadoop的过程中，我了解到Hadoop使用的是自己的Serlization框架，而不是Java的Serialization，所以可以看到Hadoop中的Writable、WritableComparable。现在，经过AVRO之后，它说Avro被用作Serlization框架。因此我有点困惑。所以，当我们说Hadoop自己的序列化框架时，我们指的是Avro还是其他东西(它内置于“hadoop”本身)。谁能帮我理解一下？最佳答案 Hadoop可写对象不是A

Serialization Hadoop section Avro hadoop2

hadoop - 我想知道有什么方法我只能在 MapReduce(Hadoop) 中选择每一行的最大值

我低于表示标题、月份和标题(键)和月份(键)组合的值(总和)的值。我只想在标题、月份和值中选择具有最高值的一行，例如，“Fly08(09,11)4或Go0645，正如您在我的实际输出中看到的那样。如果可能的话，请赐教。如果您有任何疑问，请告诉我，我会尽力澄清。Fly,07,1Fly,08,4Fly,09,4Fly,10,1Fly,11,4Fly,12,2GentleBen,05,2GentleBen,06,3GentleBen,07,2GentleBen,08,2GentleBen,09,2Germanaircraftgunsandcannons,11,1Go,04,20Go,05,2

中选 MapReduce Text class section hadoop hdfs